iT邦幫忙

2022 iThome 鐵人賽

DAY 18
0

公開資料來自於政府部門的數量、樣式、完整度以及便利性,與日具增,這是這個年代很美好的一部份。而這些資料可以經由API呼叫,也可以透過靜態的存取單一次下載。

除了這些常用的資料,還有一些屬於網站即時、變動或是累積的資料,可以透過爬蟲手法進行擷取,當然,現在很多網站技術會繞過這類型的大量、長時間的存取,所以取用的資料必不可免要經由這種管道,就要多花點巧思。

還有一種則是靜能連結的分享資料,可能來自於某些學術研究、個人分享或是特定用途,這些資料可能存放在固定靜態連結、檔案伺服器或是雲端伺服器;可歸類是否再經由分享者進行取存管控,或是全開放自由匿名存取。

以下簡述一種取用Google Docs (spreadsheet) 的公開分享的擷取方式。

Google Docs 試算表一般分享連結後,會有一串網址供分享者進行發送,它的格式為:
https://docs.google.com/spreadsheets/d/[doc-uinque-key]/edit#gid=[gid-num]

其doc-unique-key 會是一串不明所以然的文字+數字+符號
gid-num 是一個數字串列

我們要改變它的格式,預定以csv (excel) 來重新格式化它,以便下載後方便處理,那麼原來的那串網址就改成:
https://docs.google.com/spreadsheets/d/[doc-uinque-key]/cexport?format=csv&gid=[gid-num]

把「edit#」 換成「cexport?format=csv&」

這時新的連結貼到chrome 就會跳出下載一個csv 檔

如果要採用其它程式化的操作,主要的下載連結就這麼替換,其它參數就因時、因地需要自己調配


上一篇
基本資料分析流程
下一篇
分析工具
系列文
大家的心聲手機查30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言